#память GPU11.06.2025
NVIDIA представила Dynamic Memory Sparsification для 8× сжатия KV кеша в трансформерах
Исследователи NVIDIA разработали Dynamic Memory Sparsification (DMS) — метод сжатия KV кеша в трансформерах в 8 раз, который улучшает производительность инференса без снижения точности.